#Claude Opus 4.5
一個介面測了 N 個模型,DeepSeek V3.2 把我的頭給想禿了。。。
DeepSeek-V3.2 突然發佈,那參數強得離譜……基本上把 GPT-5 都按在地上摩擦了。圖:國外網友瘋狂研究 DeepSeek 3.2累不累啊?Benchmark 資料直接拉滿,而成本更是暴擊一堆海外頂尖模型。價格只有 GPT-5 的約 20%,輸出 Token 甚至只有它的 1/24。圖:DeepSeek  V3.2 參數大家都嗨了。而且這玩意還完美適配 Claude 生態,只需要改名成“deepdeek-reasoner”就好了。作為一個有“模型收集癖”的老玩家,我當時的反應和大家一樣:“扶我起來,我要測它!”但剛坐到電腦前,我就萎了。01| 以前測模型的“勸退”流程你們有沒有算過,以前我們要想對比測試幾個模型,得掉多少根頭髮?想測 DeepSeek?去官網。想測 Claude?去外網。想測阿里通義?去阿里雲。每個平台都得註冊帳號,綁手機,填發票資訊,還得先充值(那怕我只測幾毛錢)。最崩潰的來了。每家的 API 文件都長得不一樣!這家的參數叫 max_tokens,那家非要叫 max_output_tokens。為了相容這堆亂七八糟的介面,我得寫一堆 if-else 的“屎山程式碼”。圖:傳統的模型使用流程我就想簡單的問一句:“DeepSeek V3.2 和Claude Opus 4.5 到底誰寫程式碼更好?”結果這還沒開始測,我已經被“配環境”給勸退了。02|降維打擊:一個介面,通吃所有我實在不想再這麼折騰了,還好有朋友給我推薦了一個神器。它把市面上幾乎所有叫得上名字的頂尖模型(DeepSeek-V3.2、Opus 4.5、Gemini 3 Pro...),全部封裝成了一個標準的 OpenAI 相容介面。市面上做模型中轉的工具不少,但能以雲廠商的底座做到如此絲滑封裝的,還真不多。這就是七牛雲。它不僅僅是省事,這是玩法的降維打擊。這意味著,在我的視角裡,DeepSeek 和 Claude 不再是兩個需要分別配置的龐然大物,它們只是兩個不同的“字串名字”而已。我要做的,就是配置一次七牛雲的 Key。然後? 然後我就擁有了整個 AI 世界。03| 極致偷懶:Vibe Coding 實現“模型自由”既然介面統一了,我甚至連程式碼都懶得自己寫了。我打開了 Google AI Studio,然後開啟了 Vibe Coding(氛圍感程式設計) 模式。不到 10 分鐘,我擼了一個模型競技場出來:圖:模型競技場我一口氣把市面上的主流模型全擼了進來,想測那個測那個。這感覺,太 tm 爽啦!放在程式碼裡也一樣,以前我的程式碼(一堆亂七八糟的 import):import openaiimport anthropic# 此處省略50行噁心的配置程式碼現在我的程式碼:只需要改 model 參數,其他全都不用動client = QiniuAI(api_key="...")# 1. 遇到難題?切 CEO 帳號response = client.chat(model="deepseek-v3.2", messages=complex_task)# 2. 髒活累活?切 牛馬 帳號response = client.chat(model="qwen-turbo", messages=format_task)這就很舒服了。下次有新的模型一上,我不需要改邏輯,改個字串就能無縫升級。比如我突發奇想寫一個賽博朋克風的俄羅斯方塊,DeepSeek V3.2 Speciale 號稱宇宙無敵,先拿它來試試。結果它整整思考了 453 秒....圖:DeepSeek V 3.2 Speciale 思考時間很長然後寫了這玩意。。。圖:DeepSeek V3.2 Speciale 生成的遊戲接著我再試試 Gemini 3 Pro,我只需要在這裡換個模型名字就可以了。這回它不到 2 分鐘就完成了,快到飛起。圖:模型競技場中選擇模型而且這個效果也是碾壓啊。。 所以,模型好不好,不要光看跑分,實際跑一下吧。。。圖:Gemini 3 Pro 生成的遊戲整個過程非常絲滑,畢竟他們是做雲的,這速度非常流暢,不管模型在那,延遲都很低。但不得不說,DeepSeek V3.2 這個最牛逼的模型(Speciale),也是真的慢。04 最後的碎碎念:小孩子才做選擇這個模型競技場對我這種博主來說,太有用了。在這個“三天一個新模型”的瘋狂時代,效率就是生命。我是真的不想再把時間浪費在註冊帳號和配環境上了。很多人問我到底那個模型好?說實話這個問題沒有答案,模型各有千秋,我也會同時使用多個模型。下一步我還想做一件事兒,就是把多個模型放在一塊組成一個委員會,就是所謂的 LLM Council。圖:設想中的 LLM Council這也是有了七牛雲這個“萬能插座”後才能實現的玩法。你想想,每次你問一個問題,背後是一整個“復仇者聯盟”在給你出謀劃策。這才是 AI 正確的打開方式。小孩子才做選擇,成年人當然是全都要! (AI范兒)
終結OpenAI壟斷的11人
【新智元導讀】估值飆升至3500億美元,Claude Opus 4.5強勢登頂企業級市場,Anthropic正式終結了OpenAI的獨角戲時代。從Instagram創始人到OpenAI的「決裂者」,這11位頂尖人物組成了矽谷最豪華的「復仇者聯盟」。他們用一場驚天逆襲證明,在通往AGI的狂飆突進中,對安全的極致堅守才是最深的護城河。如果你在2021年走進Anthropic的辦公室,看到的只是一群從OpenAI「叛逃」出來的理想主義者;但如果你今天再看Anthropic的高管名單,你會發現這已經不再是一個簡單的實驗室,而是一支足以撼動矽谷版圖的「全明星復仇者聯盟」。隨著Anthropic的估值在本月飆升至驚人的3500億美元,Claude Opus 4.5更是拿下了企業級市場32%的份額。在這個龐大的數字帝國背後,是11個性格迥異、背景傳奇的掌舵者。他們有人曾一手打造了Instagram,有人曾是OpenAI最核心的大腦,有人則是守護過Netflix全球資料的守夜人。這是一份關於信仰、決裂與重塑的名單。權力的雙核:兄妹與決裂故事的起點始終是Dario Amodei(CEO)。這位前Google科學家和OpenAI研究副總裁,在四年前做出了一個震驚業界的決定:帶著六名親信出走。原因很簡單,他無法接受老東家在安全問題上的激進。Dario是那種典型的「技術苦行僧」,他拒絕了OpenAI的併購提議,堅守獨立研究。而站在Dario身旁的,是他的親姐姐Daniela Amodei(總裁)。哥哥仰望星空,妹妹腳踏實地。Daniela有著極罕見的履歷:從政治競選的泥潭中摸爬滾打,轉型為Stripe的風控經理,再到OpenAI的安全副總裁。在Anthropic,她是那個能讓理想主義落地的人,直接管理著包括CTO在內的核心高管,確保這家公司的骨架不會被飛速增長的肌肉壓垮。矽谷頂流的跨界當「濾鏡」遇上「大腦」最令人意想不到的加盟者,無疑是Mike Krieger(首席產品官)。作為Instagram的聯合創始人,他曾定義了全球數億人的視覺語言。在將自己的新聞應用Artifact賣給雅虎僅一個月後,他就閃電加入了Anthropic。Krieger的到來是一個強烈的訊號:Claude不想只做工程師的玩具。這位擁有極致產品嗅覺的產品天才,正準備把冷冰冰的模型變成人人愛用的國民級產品。同樣來自頂級商業戰場的還有Rahul Patil(CTO)。兩個月前,他剛從支付巨頭Stripe的CTO位置上卸任。在微軟、亞馬遜和甲骨文歷練多年的他,深諳如何駕馭龐大的工程系統。如今,他接過了指揮棒,掌管著這家AI巨頭所有的工程命脈。「叛逃者」聯盟:為了即使機器不失控在技術核心圈,Anthropic幾乎匯聚了「反叛軍」的精華。Jan Leike(對齊科學負責人)的名字本身就是一面旗幟。他曾是OpenAI「超級對齊」團隊的聯席主管,卻因絕望於前東家對安全的忽視而憤然離職。他的名言「為後AGI時代的人類繁榮而最佳化」,在Anthropic找到了真正的共鳴。在這裡,他不再是孤獨的守望者,而是掌舵者。Jared Kaplan(首席科學官)則是一位理論物理學家出身的「第一性原理」信徒。作為約翰霍普金斯大學的教授,他用量子場論的思維去解構神經網路,為公司確立了長期的科研航向。Tom Brown(首席計算官)曾是GPT-3的幕後締造者。這位自學成才的工程天才,如今正在指揮一場被YCombinator稱為「人類歷史上最大規模的基礎設施建設」。他的任務簡單而艱巨,為甚至還沒誕生的ASI打好地基。Sam McCandlish(首席架構師),另一位擁有史丹佛理論物理博士學位的初創元老。他的論文引用量超過10萬次,但他並沒有留在象牙塔裡,而是從CTO轉型為架構師,專注於那些最硬核的模型訓練難題。守夜人與布道者在這個充滿了不確定性的時代,安全感是最大的奢侈品。Vitaly Gudanets(首席資訊安全官)曾在Netflix全球擴張期間守護其資料安全。作為Lightspeed的營運合夥人,他看慣了科技圈的起起落落。今年9月,他選擇站到Anthropic的城牆上,為這艘巨輪抵禦來自網路世界的暗箭。Jack Clark(政策負責人)則有著最獨特的視角。他從彭博社的一名科技記者起家,寫出了著名的Import AI通訊,最終轉型為OpenAI的政策總監並隨後聯合創立了Anthropic。他是這個極客團隊對外的窗口,遊走在各國政府與國際組織之間,試圖為AI制定規則。Krishna Rao(CFO),這位曾在Airbnb和Fanatics掌管財務戰略的高管,正在為Anthropic繪製一張通往兆市值的藏寶圖。這11個人,有的來自象牙塔,有的來自名利場;有的為了逃離危險,有的為了追尋真相。他們聚在一起,相信人類的理性可以駕馭自己創造的神蹟。在這個瘋狂加速的時代,或許只有這群曾見過深淵、並對其心存敬畏的人,才配握緊那把通往未來的鑰匙。 (新智元)
大幅降價、無限聊天、編碼能力超越人類專家,Claude Opus 4.5重奪最強模型王冠
11月25日凌晨,Anthropic發佈了其迄今最強大的AI模型Claude Opus 4.5。該公司宣稱,新模型在軟體工程任務上實現了“最先進性能”,進一步加劇了其與OpenAI、Google等對手之間的競爭。Claude Opus 4.5在Anthropic軟體工程測試中表現出色,得分超越Gemini 3 Pro、GPT-5.1等一眾對手。圖:Claude Opus 4.5在SWE Bench軟體工程測試中的性能表現公司資料顯示,該模型在SWE-bench Verified(一項評估現實世界軟體工程能力的基準測試)中達到了80.9%的精準率,表現超越了OpenAI的GPT-5.1-Codex-Max(77.9%)、Anthropic自家的Sonnet 4.5(77.2%)以及Google的Gemini 3 Pro(76.2%)。同時,Anthropic大幅下調了這款模型的定價:輸入token降至每百萬5美元,輸出token為每百萬25美元,較前代產品Claude Opus 4.1(輸入15美元/百萬,輸出75美元/百萬)下降約三分之二。降價使得尖端AI技術對廣大開發者和企業更加觸手可及,同時也給競爭對手帶來了性能與價格的雙重壓力。現實任務中展現更優判斷力測試人員普遍反饋,新模型在各種任務中展現出更強的判斷力與直覺。他們將這種進步描述為:模型開始領悟現實情境中的“關鍵所在”。“這個模型好像突然‘開竅’了,”開發者關係負責人阿爾伯特表示,“它在處理許多現實問題時表現出的直覺和判斷力,讓人感覺相比前代模型實現了一次質的跨越。”阿爾伯特以自身工作為例進一步說明:過去他僅利用AI收集資訊,而對它們的整合與優先順序排序能力持保留態度。如今,借助Opus 4.5,他已開始委託更完整的任務,通過連接Slack和內部文件,模型能生成與他預期高度契合的連貫摘要。賓夕法尼亞大學沃頓商學院教授、生成式AI實驗室聯合主任伊桑·莫利克測試後評論道,新模型的能力確實處於技術前沿。其最顯著的提升在於實際應用,例如跨軟體操作(如用Excel製作PPT)。核心工程測試中超越所有人類工程師Claude Opus 4.5在Anthropic內部一項高難度工程評估中創下了新紀錄。這項評估本是公司為性能工程師崗位設計的限時程式設計測試,要求求職者在兩小時內完成,旨在考察其技術能力與問題判斷力。Anthropic透露,通過採用“平行測試時計算”技術,即彙總模型的多次解題嘗試並篩選最優結果,Opus 4.5的最終得分超越了所有曾參與該測試的人類工程師。在不限時間的條件下,若在其專用編碼環境Claude Code中運行,Claude Opus 4.5的解題表現更是與史上最高分的人類工程師持平。不過該公司也坦言,這類測試無法衡量其他關鍵專業技能,例如團隊協作、有效溝通,或是經年累月形成的專業直覺。核心基準測試token消耗大幅降低76%除原始性能突破外,Anthropic更將效率提升視為Claude Opus 4.5的核心競爭力。新模型在達成相同甚至更優結果時,所需處理的計算token數量顯著減少。具體資料顯示,在“中等”投入等級下,Opus 4.5可在SWE-bench Verified測試中達到與Sonnet 4.5相同的最高分,而輸出token消耗量卻大幅降低了76%。即便在“高”投入等級追求極限性能時,其表現比Sonnet 4.5再提升4.3個百分點,token使用量仍減少了近一半(48%)。為賦予開發者更精細的控制權,Anthropic引入了全新的“投入”參數。使用者可通過此參數,動態調節模型處理每個任務時所投入的計算工作量,從而在性能、響應速度和成本之間找到最佳平衡點。GitHub首席產品官馬里奧·羅德里格斯也證實了類似發現:“早期測試表明,Opus 4.5在token消耗減半的同時,性能仍超越了我們的內部編碼基準,尤其在程式碼遷移與重構等複雜任務上表現尤為出色。”阿爾伯特對此現象作出技術解讀:Claude Opus 4.5並非直接更新其底層參數,而是在持續最佳化解決問題的工具與方法。“我們看到它在迭代精進任務技能,通過自主最佳化執行方式來提升最終效果,”他解釋道。這種自我進化能力已突破程式設計領域。阿爾伯特透露,在專業文件生成、電子表格處理和簡報製作等場景中,模型表現均有顯著提升。深度整合Office突破上下文長度限制伴隨新模型的發佈,Anthropic同步推出了一系列面向企業場景的重要更新。專為Excel設計的Claude功能現已向Max、Team及Enterprise使用者全面開放,新增了對資料透視表、可視化圖表及檔案上傳的完整支援。同時,Chrome瀏覽器擴充套件也已向全體Max使用者開放使用。本次更新最具革命性的當屬“無限聊天”功能——該技術通過智能總結長對話中的早期內容,有效突破了傳統上下文窗口的限制。“在Claude AI產品中,憑藉我們創新的內容壓縮與記憶體管理技術,使用者實際上獲得了近乎無限的對話效果,”阿爾伯特解釋道。面向開發者群體,Anthropic推出了更具工程價值的“程序化工具呼叫”能力,使得Claude能夠直接編寫並執行可呼叫外部函數的程式碼。同時,Claude Code不僅升級了“計畫模式”,更以研究預覽版形式推出了桌面客戶端,首次支援開發者平行運行多個AI智能體會話。AI步入“自我進化”與盈利挑戰並存新階段模型迭代速度正成為競爭焦點。Opus 4.5距前代Haiku 4.5和Sonnet 4.5發佈僅相隔數周,這折射出整個行業的加速態勢。2025年間,OpenAI持續推出多個GPT-5變體,並於11月發佈可自主運行24小時的Codex Max模型;Google也經過數月打磨,在11月中旬正式推出Gemini 3。值得注意的是,Anthropic正利用AI技術反哺自身研發。阿爾伯特透露:“無論是產品建構還是模型研究,Claude本身都在為我們提供助力,顯著加速了開發處理程序。”面對價格戰可能帶來的利潤壓力,阿爾伯特持樂觀態度:“降價將推動更多初創公司深度整合並主推我們的技術,從而擴大市場基礎。”然而,儘管AI市場預計十年內將突破兆美元規模,主要實驗室在巨額投入計算設施與人才的同時,盈利之路依然漫長,尚未有任何供應商確立絕對主導地位。對企業和開發者而言,這場競賽正轉化為持續提升的性能與不斷下降的成本。但隨著AI在專業技術任務上逼近甚至超越人類水平,其對各行業工作模式的顛覆已從理論探討變為現實挑戰。談及AI在工程測試中超越人類的表現,阿爾伯特坦言:“這無疑是一個值得高度重視的訊號。”(騰訊科技)